Data Filtering Techniques এবং তার প্রয়োগ

Computer Programming - অক (Awk) AWK এ Data Filtering এবং Sorting (Data Filtering and Sorting in AWK) |

191

Data Filtering Techniques এবং তার প্রয়োগ

Data Filtering হল ডেটা প্রক্রিয়াকরণের একটি গুরুত্বপূর্ণ প্রক্রিয়া, যার মাধ্যমে বড় ডেটাসেট থেকে নির্দিষ্ট প্যাটার্ন বা শর্ত অনুযায়ী ডেটা বের করা হয়। AWK, Python, এবং Shell স্ক্রিপ্টের মতো টুল এবং প্রোগ্রামিং ভাষাগুলিতে ডেটা ফিল্টারিং প্রক্রিয়াটি সহজে করা যায়। এখানে AWK-এর মাধ্যমে Data Filtering-এর কিছু গুরুত্বপূর্ণ টেকনিক এবং তার প্রয়োগ নিয়ে আলোচনা করা হলো।

1. শর্ত ব্যবহার করে ডেটা ফিল্টারিং

AWK-তে ডেটা ফিল্টারিং সাধারণত শর্ত (condition) ব্যবহার করে করা হয়। AWK প্রতিটি লাইনের ডেটা পড়ে এবং যদি শর্ত সত্য হয়, তাহলে নির্দিষ্ট কার্যক্রম (action) কার্যকর হয়।

উদাহরণ:

awk '$3 > 50 { print $0 }' data.txt

এই কমান্ডটি data.txt ফাইলের তৃতীয় ফিল্ডের মান 50 এর বেশি হলে পুরো লাইন প্রিন্ট করবে।

2. নির্দিষ্ট শব্দ বা প্যাটার্ন দিয়ে ফিল্টারিং

AWK-তে নির্দিষ্ট শব্দ বা প্যাটার্নের সাথে মিলে যাওয়া লাইন ফিল্টার করার জন্য নিয়মিত এক্সপ্রেশন ব্যবহার করা যায়।

উদাহরণ:

awk '/error/ { print $0 }' logfile.txt

এই কমান্ডটি logfile.txt ফাইল থেকে error শব্দটি থাকা সব লাইন প্রিন্ট করবে।

3. ফিল্ডের উপর ভিত্তি করে ফিল্টারিং

AWK ব্যবহার করে নির্দিষ্ট ফিল্ডের মানের ভিত্তিতে ডেটা ফিল্টার করা যায়। $ চিহ্ন ব্যবহার করে ফিল্ড নির্বাচন করা হয়।

উদাহরণ:

awk '$1 == "Alice" { print $2, $3 }' data.txt

এই কমান্ডটি data.txt ফাইল থেকে প্রথম ফিল্ডে "Alice" থাকা লাইনগুলির দ্বিতীয় এবং তৃতীয় ফিল্ড প্রিন্ট করবে।

4. লজিক্যাল অপারেটর দিয়ে শর্ত মিলানো

AWK-তে লজিক্যাল অপারেটর (&&, ||, !) ব্যবহার করে একাধিক শর্ত একসাথে মিলিয়ে ডেটা ফিল্টার করা যায়।

উদাহরণ:

awk '$2 > 20 && $3 < 100 { print $1, $2, $3 }' data.txt

এই কমান্ডটি data.txt ফাইল থেকে সেই লাইনগুলো প্রিন্ট করবে যেগুলির দ্বিতীয় ফিল্ডের মান 20 এর বেশি এবং তৃতীয় ফিল্ডের মান 100 এর কম।

5. BEGIN এবং END ব্লক ব্যবহার করে প্রক্রিয়াকরণ

AWK-তে BEGIN এবং END ব্লক ব্যবহার করে ডেটা প্রক্রিয়াকরণের আগে এবং পরে কার্যক্রম পরিচালনা করা যায়।

উদাহরণ:

awk 'BEGIN { print "Processing Data..." }
$2 > 50 { count++ }
END { print "Total number of records with second field > 50:", count }' data.txt

এই স্ক্রিপ্টটি data.txt ফাইলের দ্বিতীয় ফিল্ডের মান 50 এর বেশি হলে সেগুলোর সংখ্যা গণনা করবে এবং শেষে আউটপুট প্রিন্ট করবে।

6. নির্দিষ্ট ফিল্ডের মিল খুঁজে বের করা

AWK-এর ~ অপারেটর ব্যবহার করে ফিল্ডের মধ্যে নিয়মিত এক্সপ্রেশন মিল খুঁজে বের করা যায়।

উদাহরণ:

awk '$1 ~ /^[A-Z]/ { print $0 }' data.txt

এই কমান্ডটি data.txt ফাইল থেকে প্রথম ফিল্ডে বড় হাতের অক্ষর দিয়ে শুরু হওয়া লাইনগুলো প্রিন্ট করবে।

Data Filtering-এর অন্যান্য টেকনিক

ফিল্টার করা ডেটা সংরক্ষণ করা:
```
awk '$3 > 100 { print $0 }' data.txt > filtered_data.txt
```
এই কমান্ডটি ফিল্টার করা ডেটা filtered_data.txt ফাইলে সংরক্ষণ করবে।
গণনা এবং গড় বের করা:
```
awk '{ sum += $2; count++ } END { print "Average:", sum / count }' data.txt
```
এই স্ক্রিপ্টটি data.txt ফাইলের দ্বিতীয় ফিল্ডের গড় নির্ণয় করবে।

সারসংক্ষেপ

Data Filtering একটি গুরুত্বপূর্ণ প্রক্রিয়া, যা বড় আকারের ডেটাসেট থেকে নির্দিষ্ট ডেটা বের করতে সহায়ক। AWK-এর মাধ্যমে শর্ত, নিয়মিত এক্সপ্রেশন এবং লজিক্যাল অপারেটর ব্যবহার করে সহজেই ডেটা ফিল্টার করা যায়। Data Filtering টেকনিক ব্যবহার করে ডেটা বিশ্লেষণ এবং প্রক্রিয়াকরণ আরও কার্যকর এবং সঠিক করা সম্ভব।

common.content_added_by

Md Azizur Rahman

common.read_more

Data Sorting এবং Custom Sort Function Unique Data Extraction এবং Duplicate Removal Numerical এবং Alphabetical Sorting এর উদাহরণ

Data Filtering Techniques এবং তার প্রয়োগ